查看原文
其他

流批一体的一些想法

The following article is from 大数据羊说 Author antigeneral了呀

每家数字化企业在目前遇到流批一体概念的时候,都会对这个概念抱有一些疑问,到底什么是流批一体?这个概念的来源?这个概念能为用户、开发人员以及企业带来什么样的好处?跟随着博主的理解和脑洞出发吧。

前言

到底什么是流批一体?

批的来源?流的来源?

为什么要做流批一体?

数据开发的现状出发

探索理想中的流批一体能力支持

最终到数仓落地

go!!!


n 年前的引擎能力(hive 等)

对文件、批量数据处理支持很友好

数据多是小时、天级别延迟

结论:批是在批式存储、处理引擎能力支持的角度提出的


近几年的引擎能力(flink 等)

逐渐对流式数据处理、容错支持更好

数据可以做到秒、分钟级别延迟

结论:流是在流式存储、处理引擎能力支持的角度提出的



站在用户的角度来看

对于相同的指标,有离线的、实时的,而且部分场景下口径不能统一!




博主理解的流批一体更多的是站在平台能力支持的角度上

所以这里重点说明引擎 + 工具链上的期望




Hive企业级性能优化(好文建议收藏)
Hive千亿级数据倾斜解决方案(好文收藏)
一文学完所有的Hive Sql(两万字最全详解)
Hive企业级性能优化(好文建议收藏)
通俗易懂数仓建模—Inmon范式建模与Kimball维度建模
最开始反对中台的人,结果还是选择了中台
到底什么是数据湖?全面解读数据湖的缘起、特征、技术、案例和趋势

点击左下角“阅读原文”查看更多精彩文章,后台回复【加群】申请加入万人数据学习社群


🧐分享、点赞、在看,给个3连击呗!👇


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存